Sous-échantillonnage topographique par apprentissage semi-supervisé

نویسندگان

  • Mustapha Lebbah
  • Younès Bennani
چکیده

Résumé. Plusieurs aspects pourraient influencer les systèmes d’apprentissage existants. Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d’observations appartenant à une classe, dépasse fortement celui des observations dans les autres classes. Dans ce type de cas assez fréquent, le système d’apprentissage a des difficultés au cours de la phase d’entraînement liées au déséquilibre inter-classe. Nous proposons une méthode de sous-échantillonnage adaptatif pour traiter ce type de bases déséquilibrées. Le processus procède par le sous-échantillonnage des données majoritaires, guidé par les données minoritaires tout au long de la phase d’un apprentissage semi-supervisée. Nous utilisons comme modèle d’apprentissage les cartes auto-organisatrices. L’approche proposée a été validée sur plusieurs bases de données en utilisant les arbres de décision comme classificateur avec une validation croisée. Les résultats expérimentaux ont montré des performances très prometteuses.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Parallel and Distributed Approaches for Graph Based Semi-supervised Learning

Two approaches for graph based semi-supervised learning are proposed. The first approach is based on iteration of an affine map. A key element of the affine map iteration is sparse matrix-vector multiplication, which has several very efficient parallel implementations. The second approach belongs to the class of Markov Chain Monte Carlo (MCMC) algorithms. It is based on sampling of nodes by per...

متن کامل

SLEMC : Apprentissage semi-supervisé enrichi par de multiples clusterings

Résumé. La tâche de classification supervisée consiste à induire un modèle de prédiction en utilisant un ensemble d’échantillons étiquetés. La précision du modèle augmente généralement avec le nombre d’échantillons disponibles. Au contraire, lorsque seuls quelques échantillons sont disponibles pour l’apprentissage, le modèle qui en résulte donne généralement des résultats médiocres. Malheureuse...

متن کامل

Modélisation de tables de contingence par arbres d'induction

RÉSUMÉ. Cet article est consacré à l’évaluation statistique des descriptions de tables de contingence fournies par les arbres d’induction. On se limite au cas particulier de données catégorielles. Trois aspects sont successivement abordés. i) La nature de l’ajustement en apprentissage supervisé, où l’on souligne la distinction entre prédiction de valeurs individuelles et prédiction de leur repr...

متن کامل

Apprendre et Optimiser la courbe ROC

Un nouveau critère pour l’évaluation des hypothèses extraites par apprentissage supervisé a été introduit depuis la fin des années 90 : l’aire sous la courbe ROC (AUC). Ce critère induit une nouvelle approche de l’apprentissage, utilisant l’AUC comme critère de choix des hypothèses. L’approche présentée dans cet article s’attaque à l’optimisation de ce critère dans le cadre d’hypothèses linéair...

متن کامل

Validation statistique des cartes de Kohonen en apprentissage supervisé

Résumé. En apprentissage supervisé, la prédiction de la classe est le but ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenn...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010